クラスメソッド データアナリティクス通信(AWSデータ分析編) – 2025年1月号
クラウド事業本部コンサルティング部の石川です。今月は、AWS re:Invent2024のAWSのアナリティクス関連サービスのアップデート特大号です。
AWS re:Invent 2024では、アナリティクス分野で重要な発表がありました。次世代Amazon SageMakerの統合プラットフォーム「Amazon SageMaker Unified Studio」と「Amazon SageMaker Lakehouse」、AWS Glue 5.0の発表、AWS Clean Roomsの複数クラウド・データソース対応、Amazon OpenSearch Serviceの新分析エクスペリエンス提供などが注目を集めました。
また、AWS re:Invent 2024でAmazon S3 Tablesが発表されました。Apache Iceberg形式のテーブルデータに最適化されたストレージで、従来のS3と比べて最大3倍のクエリ性能と10倍のトランザクション処理が可能です。
他にもアップデートがあるので紹介します!
Amazon SageMaker
新機能・アップデート
2024/12/03 - Introducing the next generation of Amazon SageMaker
次世代のSageMakerを発表し、データ、分析、AIを統合した単一プラットフォームを提供されました。新しいSageMakerには、SageMaker Unified Studioが中核として組み込まれ、データ探索から生成AIアプリケーション開発まで、幅広い機能を単一の環境で利用できます。
統合されたSQL編集ツール、ビジュアルETLツール、統合Jupyterノートブック、データカタログ機能があります。また、Amazon Bedrockを統合し、生成AIアプリケーションの開発も可能です。さらに、Amazon Qが全体的なワークフローをサポートします。この新しいプラットフォームは、データ処理、モデル開発、生成AIアプリ開発など、幅広いニーズに対応し、ユーザーがデータとAIの力を最大限に活用できるよう設計されています。
Amazon SageMaker Unified Studio
新機能・アップデート
2024/12/03 - Announcing the preview of Amazon SageMaker Unified Studio
AWSは、Amazon SageMaker Unified Studioのプレビュー版を発表しました。これは、データとAI開発を統合した環境で、チームの協力とデータ製品の迅速な構築を支援します。SageMaker Unified Studioは、データ処理、SQL分析、機械学習モデル開発、生成AIアプリケーション開発のためのAWSの分析およびAI/MLサービスのツールを統合しています。また、Amazon SageMaker Lakehouseを通じて、オープンソースの互換性と様々なデータソースへのアクセスを提供します。セキュリティ要件を満たすためのガバナンス機能も強化されています。
この新しい環境では、組織全体のデータとAIアセットの検索、アクセス、クエリが可能で、プロジェクトでの共同作業や成果物の共有が容易になります。統合されたJupyter Notebooksや、Amazon Bedrock IDE、Amazon Q Developerなどの機能も含まれており、開発ライフサイクル全体を通じてタスクを加速化し、効率化することができます。
Amazon SageMaker Lakehouse
新機能・アップデート
2024/12/03 - AWS announces Amazon SageMaker Lakehouse
データはデータレイク、データ ウェアハウス、さまざまなアプリケーションに分散しており、データサイロが生まれています。これは、データの重複、複雑なパイプライン、コスト増加を引き起こします。さらに、データの保存方法によって使用可能なツールが制限され、データ操作の自由度が低下します。また、一貫性のないデータアクセスが、適切な意思決定を妨げています。
そこで登場したのが、Amazon SageMaker Lakehouseです。Amazon SageMaker Lakehouseは、分析と人工知能(AI)を簡素化する統合された、オープンで安全なデータレイクハウスです。この機能は、Amazon S3データレイクとAmazon Redshiftデータウェアハウスにまたがるすべてのデータを統合し、単一のデータを複製や移動することなく分析およびAI/MLアプリケーションの構築を支援します。
2024/12/03 - Amazon SageMaker Lakehouse and Amazon Redshift support for zero-ETL integrations from eight applications
Amazon SageMaker Lakehouse と Amazon Redshift が、8つのアプリケーションからのゼロETL統合をサポートするようになりました。この新機能により、SalesforceやSAP、ServiceNow、Zendeskなどのアプリケーションからのデータ抽出と読み込みが自動化されます。AWSによって完全に管理されるこのゼロETL統合は、ETLデータパイプラインの構築の必要性を最小限に抑え、データ管理プロセスを効率化します。
ユーザーは、ノーコードインターフェースで数設定を選択するだけで、データレイクとデータウェアハウスにアプリケーションデータの最新レプリカを自動的に取り込み、維持することができます。これにより、組織のデータサイロを解消し、運用効率を向上させながら、アプリケーションデータからの洞察に集中できるようになります。結果として、データ取り込みプロセスが最適化され、分析や洞察の獲得に注力できるようになります。
2024/12/03 - Amazon SageMaker Lakehouse integrated access controls now available in Amazon Athena federated queries
Amazon SageMakerがAmazon Athenaのフェデレーテッドクエリに対して、統合されたアクセス制御機能を提供するようになりました。この新機能により、データワーカーはSageMaker Lakehouse内で様々なデータソースを統合し、きめ細かなアクセス制御ポリシーを一元的に適用できるようになります。
ユーザーはSageMaker Unified Studioにログインし、フェデレーテッドデータソースに接続して、列やタグベースの権限を設定できます。これらの権限はAthenaでフェデレーテッドデータソースをクエリする際に適用されます。この機能により、組織はデータの保存場所に関わらず、統合されたデータソースから洞察を抽出しつつ、セキュリティ態勢を強化することができます。この新機能は、SageMaker Lakehouseが利用可能なすべてのAWSリージョンで利用可能です。
2024/12/03 - Amazon DynamoDB zero-ETL integration with Amazon SageMaker Lakehouse
Amazon DynamoDB と Amazon SageMaker Lakehouse のZero-ETL統合しました。プレビュー版とはZero-ETLの設定画面やその流れがかなり変わっています。本日はこの新機能が動作する環境を構築し、データが同期される事を検証しました。
この新機能は、DynamoDB から Amazon SageMaker Lakehouse への複雑なデータパイプラインの構築と維持することなくデータが連携され、ニアリアルタイムな分析に利用できるようになります。DynamoDB のパフォーマンスや可用性にほとんど影響を与えず、読み取りキャパシティユニット(RCU)も消費しません。
2024/12/03 - AWS expands data connectivity for Amazon SageMaker Lakehouse and AWS Glue
Amazon Web Services(AWS)は、Amazon SageMaker LakehouseとAWS Glueのデータ接続機能を拡張し、データベース、データレイク、企業アプリケーションなど、さまざまなデータソースへの接続の作成、管理、使用が効率化されます。統合されたデータ接続機能は、接続設定テンプレート、標準認証方法のサポート、接続テスト、メタデータ取得、データプレビューなどを提供します。
データ統合、分析、科学の各ユースケースで、一度設定した接続を複数のAWSサービスで再利用できるようになります。また、接続テストによる信頼性の向上、メタデータ閲覧によるデータ構造の理解、データプレビュー機能によるソースデータの即時フィードバックなど、データ管理の効率と精度が大幅に向上します。
Amazon SageMaker Data and AI Governance
新機能・アップデート
2024/12/03 - Introducing Amazon SageMaker Data and AI Governance
Amazon SageMaker Data and AI Governanceは、Amazon DataZoneを基盤として構築された機能で、エンジニア、データサイエンティスト、アナリストが承認されたデータとモデルを安全に発見し、アクセスすることを可能にします。生成AIによって作成されたメタデータを使用したセマンティック検索を通じて、ユーザーは必要なリソースを効率的に見つけることができます。
AWS S3
新機能・アップデート
2024/12/01 - Announcing Amazon S3 Metadata (Preview) – Easiest and fastest way to manage your metadata
Amazon S3は、数十億から数兆のオブジェクトを含む個別のバケットを作成できる大規模なストレージサービスです。この規模で特定の条件を満たすオブジェクトを見つけることが課題となっていました。
そこで、登場したのがAmazon S3 メタデータです。S3オブジェクトの追加や変更時に自動的にメタデータを生成し、Apache Icebergテーブルに保存します。Apache Icebergテーブルは、Amazon Athena、Amazon Redshift、Amazon QuickSight、Apache Sparkなどのツールを使用してメタデータを効率的にクエリできます。メタデータスキーマには、バケット名、オブジェクトキー、作成/変更時間、ストレージクラス、暗号化状態、タグ、ユーザーメタデータなど20以上の要素が含まれます。
2024/12/03 - Announcing Amazon S3 Tables – Fully managed Apache Iceberg tables optimized for analytics workloads
Amazon S3 Tablesは、Apache Iceberg標準をサポートするクラウドオブジェクトストアが発表されました。分析ワークロード向けに最適化され、セルフマネージメント型テーブルと比較して最大3倍のクエリスループットと最大10倍の1秒あたりのトランザクション数を実現します。S3 Tablesは、データレイクが拡大・進化しても、クエリ効率とストレージコストを自動的に最適化する継続的なテーブルメンテナンスを行います。また、AWS Glue Data Catalogとの統合により、Amazon Data Firehose、Athena、Redshift、EMR、QuickSightなどのAWSアナリティクスサービスを使用してデータのストリーミング、クエリ、可視化が可能になります。
S3 Tablesは、テーブルバケットという新しいバケットタイプを導入し、標準SQLでのデータのロードとクエリ、行レベルのトランザクション、クエリ可能なスナップショット、スキーマ進化などの高度な分析機能を提供します。
Amazon Redshift Provisioned / Redshift Serverless
新機能・アップデート
2024/12/13 - Amazon Redshift がゼロ ETL 統合に対するマテリアライズドビューの自動的かつ段階的な更新をサポート
Zero-ETL統合のためのマテリアライズドビューの自動・増分更新をサポートによって、これまで必要だったフルリフレッシュが不要になりました。
最新のデータに基づいた高速なクエリ応答が可能にするには、データの変更を迅速かつ効率的に反映する必要があります。手動でのリフレッシュ操作や複雑なETLプロセスが不要、自動更新により、運用チームの作業負荷が削減されます。
APIの変更点
2024/12/03 - Amazon Redshift - 2 new8 updated api methods
AWS Glue データカタログにデータを共有するための Amazon Redshift RegisterNamespace および DeregisterNamespace API のサポートが追加されました。
2024/12/03 - Redshift Serverless - 1 new api methods
既存の管理対象ワークグループの概要を取得するための ListManagedWorkgroups API のサポートが追加されました。
AWS Glue
新機能・アップデート
2024/12/03 - AWS Glue Data catalog now automates generating statistics for new tables
AWS Glue Data Catalogが新しいテーブルに対する統計情報の自動生成機能で、Amazon RedshiftとAmazon Athenaのコストベース最適化(CBO)が強化され、クエリのパフォーマンス向上とコスト削減が期待できます。以前はApache Icebergテーブルの統計情報作成に継続的な監視と設定更新が必要でしたが、新機能では一度の設定で自動化が可能になりました。Lake Formationコンソールでデフォルトカタログを選択し、テーブル最適化設定で統計情報を有効にするだけで開始できます。
新規テーブル作成や既存テーブル更新時に、サンプル行を使用して全列の統計情報が生成され、定期的に更新されます。この統計情報を活用することで、Amazon RedshiftとAmazon Athenaは最適な結合順序やコストベースの集約プッシュダウンなどの最適化を行い、クエリ効率を向上させます。
2024/12/03 - Introducing AWS Glue 5.0
AWS Glue 5.0では、エンジンのアップグレードに加えて、セキュリティ機能の強化やSageMaker Lakehouseのサポートなどの新機能が追加されています。また、オープンテーブルフォーマットのサポートが更新され、データレイクにおけるパフォーマンス、コスト、ガバナンス、プライバシーに関する高度なユースケースに対応できるようになりました。
2024/12/03 - Amazon S3 Access Grants now integrate with AWS Glue
AWS GlueでAmazon S3 Access Grantsが利用できるようになりました。ただし、サポートされるジョブタイプはSparkのみです。
Glue SparkジョブでS3 Access Grantsを使用することで、Entra IDやOktaなどのIdpやIAMプリンシパルとS3に保存されているデータセットとを紐付けることができます。これにより、バケットポリシーや個別のIAMロールを作成・管理することなくS3の権限を簡単に管理できるようになりました。
2024/12/19 - AWS Glue データカタログで Apache Iceberg テーブルの高度な自動最適化を提供
AWS Glue Data Catalog は、データの圧縮、スナップショット管理、孤立ファイルの処理が自動的に行われ、メタデータのオーバーヘッド削減、ストレージコスト管理、クエリパフォーマンス向上が実現します。手動でのメンテナンス作業が不要となり、Iceberg テーブルの効率的な運用が可能になります。
この自動最適化機能は、テーブルを定期的に監視し、不要なスナップショットやデータファイルを削除します。ユーザーは保持期間などの設定をカスタマイズでき、AWS コンソール、CLI、SDK を通じて機能を有効化できます。
APIの変更点
2024/12/03 - AWS Glue - 22 new6 updated api methods
- 3P SaaS および DynamoDB から Redshift/Redlake にデータを取り込むゼロ ETL 統合
- 再利用を可能にする接続の新しいプロパティ、メタデータの取得/プレビュー用の新しい接続 API
- マルチカタログの CRUD 操作のサポート
- 自動統計収集のサポート
2024/12/12 - AWS Glue - 3 updated api methods
Data Quality で顧客管理の暗号化をサポートし、顧客が独自の KMS キーを使用してデータを暗号化できるようにするため、顧客が KMS キーを提供できる DataQualityEncryption フィールドを SecurityConfiguration API に追加します。
2024/12/23 - AWS Glue - 1 updated api methods
ルートカタログを返すために、GetCatalogs API に IncludeRoot パラメータを追加します。
Amazon Athena
APIの変更点
2024/12/03 - Amazon Athena - 5 updated api methods
CreateDataCatalog に FEDERATED タイプを追加します。Athena Data Catalog、AWS Lambda コネクタ、および AWS Glue 接続が作成されます。
Create/DeleteDataCatalog は DataCatalog を返します。DataCatalog と DataCatalogSummary に Status、ConnectionType、および Error を追加します。Athena Catalog のみを削除するには、DeleteCatalogOnly を追加します。
Amazon QuickSight
新機能・アップデート
2024/12/03 - Amazon Q in QuickSight unifies insights from structured and unstructured data
Amazon Q in QuickSightが、従来のBI(ビジネスインテリジェンス)データソースからの洞察に、文書、ウェブページ、画像などの非構造化データからの文脈情報を追加することが可能になりました。ユーザーは自然言語で質問し、視覚化されたデータサマリーを得られるほか、文書をアップロードしたり非構造化データソースに接続したりして、より豊かなナラティブやプレゼンテーションを作成できます。
2024/12/04 - Announcing scenarios analysis capability of Amazon Q in QuickSight (preview)
Amazon QuickSightに新たに導入されたAmazon Qのシナリオ分析機能は、AIを活用したデータ分析体験を提供し、より迅速で効果的な意思決定を支援します。ユーザーは自然言語で質問や目標を設定し、複雑なデータ分析を従来の方法と比べて最大10倍速く実行できるようになりました。
Amazon Qは、分析アプローチの提案から、データの自動分析、関連する洞察の提示、そして推奨アクションを含む結果の要約まで、ステップバイステップでユーザーをガイドします。専門的なスキルを必要とせず、スプレッドシートでの煩雑な作業を軽減し、組織全体でデータ駆動型の意思決定を促進します。また、直感的な分析キャンバス上で、データとの直接的なインタラクションや分析ステップの調整、複数の分析パスの並行探索が可能となり、ビジネスニーズの変化に迅速に対応できる柔軟性を提供します。
2024/12/03 - Amazon QuickSight - 8 new3 updated api methods
QuickSight Q&A (IDC) の Q の非構造化データのサポートに必要な API が含まれています。
2024/12/18 - Amazon QuickSight - 3 updated api methods
Dataset エンティティに PerformanceConfiguration 属性のサポートを追加します。CreateDataset および UpdateDataset API で PerformanceConfiguration 仕様を許可します。
Amazon DataZone
新機能・アップデート
2024/12/03 - Data Lineage is now generally available in Amazon DataZone and next generation of Amazon SageMaker
AWSは、Amazon DataZoneとAmazon SageMakerの次世代版でデータリネージ機能の一般提供を開始しました。AWS GlueとAmazon Redshiftからのリネージを自動的に捕捉し、データの流れを視覚化します。OpenLineage互換性により、データ生産者は自動化されたリネージにOpenLineage対応システムやAPIからのイベントを追加でき、データ消費者に包括的なデータ移動の全体像を提供します。
この機能は、AWS Glue、Amazon Redshift、Sparkの実行からデータアセットとカラムのスキーマや変換のリネージを自動的に捕捉し、一貫性を維持しエラーを減少させます。データ消費者はアセットの出所に確信を持ち、データ生産者は変更の影響を評価できます。さらに、リネージのバージョン管理により、任意の時点でのリネージの可視化や、アセットやジョブの履歴全体での変換の比較が可能になります。この履歴リネージは、データアセットのトラブルシューティング、監査、整合性の検証に不可欠な、データの進化に関する深い理解を提供します。
APIの変更点
2024/12/03 - Amazon DataZone - 14 new23 updated api methods
接続、プロジェクト プロファイル、および JobRuns API のサポートを追加します。GA で新しい Lineage 機能をサポートします。一部のクライアントでタイプを調整する可能性がある DataSource および SubscriptionTarget API のパラメーターのオプションを調整します。
AWS Clean Rooms
新機能・アップデート
2024/12/01 - Amazon OpenSearch Service zero-ETL integration with Amazon Security Lake
Zero-ETL統合とは、従来のETL(抽出、変換、ロード)プロセスを不要にし、データの移動や変換を簡素化するアプローチです。現在、Amazon OpenSearch ServiceやAmazon Redshiftなどのサービス統合が進められています。
Amazon OpenSearch Service と Amazon Security Lake の Zero-ETL 統合は、セキュリティデータの直接クエリと分析を可能にする新しい機能です。この統合により、複雑なデータパイプラインの管理が不要となり、OpenSearch ServiceがSecurity Lakeのリアルタイムデータを用いてセキュリティ分析に集中できるようになりました。
2024/12/01 - AWS Clean Rooms now supports multiple clouds and data sources
AWS Clean Roomsが、複数のクラウドやデータソースからのデータセット連携をサポートする新機能で、企業とそのパートナーは、SnowflakeやAmazon Athenaに保存されたデータを、基礎となるデータを移動や共有することなく、簡単に連携できるようになりました。AWSとSnowflake間でのデータセット連携が可能となり、最新のデータをゼロETLで活用できます。
データ移行に伴うコストや複雑さを排除し、セキュアなデータクリーンルームを数分で作成し、広告キャンペーン、投資決定、研究開発に関するユニークな洞察を生成できます。AWSは今後も、顧客が自社の記録や情報を管理しながら、AWSクリーンルームで安全に連携できる方法を拡大していく予定です。
APIの変更点
2024/12/02 - AWS Clean Rooms Service - 3 updated api methods
顧客とそのパートナーは、共同作業者間で基礎データを移動したり共有したりすることなく、Snowflake と Amazon Athena に保存されているデータと簡単に共同作業できるようになります。
2024/12/17 - AWS Clean Rooms ML - 2 updated api methods
StartAudienceGenerationJob API の SQL コンピューティング構成のサポートを追加します。
Amazon OpenSearch
新機能・アップデート
2024/12/01 - Amazon OpenSearch Service zero-ETL integration with Amazon Security Lake
Amazon OpenSearch ServiceとAmazon Security Lakeの新しいzero-ETL統合により、セキュリティデータの分析が大幅に効率化されました。この統合によって、OpenSearchを通じて直接セキュリティデータをクエリし分析することが可能になり、以前は費用面で分析が困難だった大量のデータソースも効率的に探索できるようになりました。データの選択的な取り込みが可能になり、複雑なデータパイプラインの管理が不要になったことで、セキュリティ運用に集中しつつ分析コストを削減できる可能性が生まれました。
OpenSearch Serviceの強力な分析・可視化機能を活用することで、より深い調査や脅威の検出、セキュリティ状況の積極的な監視が可能になります。この統合は、調査の加速、これまでアクセス困難だったデータソースからの洞察の発見、分析の効率化とコスト最適化を、最小限のデータ移行で実現します。
2024/12/01 - New Amazon CloudWatch and Amazon OpenSearch Service launch an integrated analytics experience
APIの変更点
2024/12/02 - Amazon OpenSearch Service - 5 new api methods
CRUDL API のサポートが導入され、接続されたデータ ソースの作成と管理が可能になります。
AWS Lake Formation
APIの変更点
2024/12/03 - AWS Lake Formation - 16 updated api methods
2 つの新しい LakeFormation 権限 (CREATE_CATALOG、SUPER_USER) が追加され、CatalogResource の Id フィールドが追加されました。また、新しい条件と式フィールドも追加されました。
最後に
AWSのデータ分析関連サービスは、AWS re:Invent 2024で多くの重要な発表がありました。Amazon SageMakerの次世代プラットフォームであるUnified StudioとLakehouseの導入により、データ処理から生成AIアプリケーション開発まで、幅広い機能を単一の環境で利用できるようになりました。AWS Glue 5.0の発表やAWS Clean Roomsの複数クラウド・データソース対応など、データ統合と分析の効率化が進められています。
Amazon QuickSightにはAmazon Qが統合され、構造化データと非構造化データからの洞察を統合し、AIを活用したシナリオ分析機能が導入されました。さらに、Amazon DataZoneとAmazon SageMakerでデータリネージ機能が一般提供され、データの流れの可視化と管理が強化されています。
Amazon S3 Tablesの発表は、Apache Iceberg形式のテーブルデータに最適化されたストレージを提供し、従来のS3と比べて大幅なパフォーマンス向上を実現しています。また、Amazon RedshiftやAmazon Athenaなどのサービスでも、Zero-ETL統合やマテリアライズドビューの自動更新など、データ分析のプロセスを簡素化する機能が追加されました。
特に S3 Tablesに関していち早く様々なブログを提供しています。